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摘要 : 大 气 涡流 导致 地 基 望 远 镜 成 像 模糊 ， 高 分 状 图 像 重 建 是 解决 这 一 问 
题 的 有 效 方法 ，K-T 高 分 辨 图 像 重 建 方法 是 其 中 常用 的 一 种 ， 但 存在 数据 大 、 
计算 复杂 等 因素 的 制约 ， 导 致 重建 非常 耗 时 。 针 对 当前 中 央 处 理 器 与 图 形 处 理 
器 混合 架构 下 的 高 分 辨 图 像 重 建 开 展 研 究 ， 采 用 MP1-CUDA 混合 并 行 技术 ， 最 终 
实现 了 一 套 在 单机 GPU 环境 下 基于 斑点 图 像 重建 技术 的 高 分 辨 太阳 图 像 重 建 系 
统 。 通 过 实验 验证 ， 与 单一 的 信息 传递 接口 并 行 相 比 ， 图 像 子 块 的 处 理 速度 有 
了 显著 提升 ， 在 8 个 子 进程 下 整个 流程 的 加 速 比 达到 了 2。 实验 结果 表明 ，MP1- 
CUDA 混合 并 行 的 有 效 性 ， 能 够 为 天 文 研究 中 的 大 规模 计算 任务 提供 借鉴 和 参考 。 
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地 基 望 远 镜 成 像 受 大 气 湛 流 的 影响 导致 图 像 的 闪 炬 和 持 动 从 而 限制 了 图 像 
分 辩 率 "1， 而 高 分 辩 率 太阳 观测 图 像 是 研究 太阳 物理 的 必 备 条 件 ， 这 就 要 求 望 
远 镜 能 够 实现 衍射 极限 分 辨 率 的 成 像 六 。 


目前 事后 图 像 处 理 主要 包括 盲 退 卷 积 、 相 位 差 法 和 斑点 统计 重建 方法 。 其 
中 斑点 统计 重建 方法 的 算法 本 质 是 基于 一 组 含有 高 频 信 息 的 短 曝 光 图 像 的 统计 


计算 来 重建 目标 高 频 信息 ”, 如 常用 的 Knox-Thompson (K-T) 算法 。 但 是 由 于 观测 
数据 量 大 、 计 算 复 杂 等 因素 的 制约 ， 事 后 图 像 重 建 过 程 耗 时 严重 ， 无 法 达到 实 
时 观测 的 需求 。 目 前 国内 外 先进 的 望远镜 通常 使 用 高 性 能 计算 机 或 者 大 规模 的 
计算 机 集群 ， 通 过 并 行 计算 进行 高 分 辨 图 像 重 建 ， 比 如 美国 大 熊 湖 天 文 台 “ 采 
用 80 核 的 计算 集群 。 但 是 大 规模 计算 集群 的 成 本 太 高 ， 集 群 规模 小 处 理 速度 满 
足 不 了 实时 处 理 的 需求 ， 因 此 人 迫切 需求 一 种 更 高 效 的 方法 提高 计算 效率 。 
近年 来 图 形 处理 器 通用 计算 技术 发 展 迅 猛 ， 在 许多 复杂 的 计算 任务 中 得 到 
广泛 应 用 。 本 文 对 CPU-GPU 混合 架构 下 的 高 分 辨 图 像 重 建 进行 研究 ， 系 统 研 究 
了 使 用 MP1-CUDA 混合 并 行 技 术 实现 基于 K-T 算法 的 高 分 辨 图 像 重建 的 方法 ， 最 
终 实 现 了 一 套 在 单机 环境 下 的 高 分 辨 大 阳 图 像 重 建 系统 。 
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1 混合 编程 模型 
1. 1 CUDA 简介 

图 形 处 理 器 最 早 是 为 提高 计算 机 图 形 图 像 显示 的 实时 性 和 高 效 性 而 诞生 的 ， 
目前 它 已 发 展 成 为 了 高 密集 度 、 高 并 行 度 、 多 线程 ， 拥 有 强大 计算 能 力 和 极 高 
存储 器 带宽 的 多 核 处 理 器 汪 ， 其 计算 能 力 远 远 超过 了 中 央 处 理 器 ， 如 
NVIDIATes |aK80 的 单 精度 计算 能 力 达 到 了 7 TFLOPS. 

CUDA 是 一 种 通用 的 图 形 处 理 器 并 行 计算 架构 ， 该 架构 利用 图 形 处 理 器 的 处 
理 能 力 能 够 大 幅 提 升 计算 性 能 ， 开 发 人 员 可 以 直接 使 用 C 语言 等 在 该 架构 下 编 
写 程 序 。 运 行 在 图 形 处 理 器 上 的 CUDA 并 行 计算 函数 称 为 kerne1 (内 核 函 数 ) ， 一 
个 完整 的 CUDA 程序 由 一 系列 的 kernel 函数 和 主机 端的 串 行 处 理 部 分 共同 组 成 。 
一 个 kernel 函数 以 线程 网 格 的 形式 组 织 ， 每 个 网 格 由 若干 个 线程 块 组 成 ， 每 个 
线程 块 又 由 若干 个 线程 组 成 。 一 个 kernel 以 线程 块 为 单位 执行 ， 只 有 在 同一 个 
线程 块 中 的 线程 才 可 以 互相 通信 。CUDA 为 一 些 复杂 的 计算 提供 了 很 多 应 用 程序 
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接口 , 例如 本 实验 用 到 的 CUBLAS 和 CUFFT 库 ，CUBLAS 库 提 供 了 大 量 对 和 矩 阵 的 基 
础 性 操作 ，CUFFT 库 提供 了 一 到 三 维 各 种 数据 类 型 的 傅 里 叶 变 换 函 数 。 
1. 2 MP1-CUDA 混合 编程 

MPI 是 一 种 消息 传递 协议 ， 它 通过 消息 传递 实现 不 同 进程 之 间 的 通信 ， 从 而 
达到 并 行 计 算 的 目的 。MP1I 在 许多 复杂 的 计算 任务 中 得 到 广泛 应 用 ， 明 安 图 射 
电 频 谱 日 象 仪 就 使 用 MP1 实现 了 高 性 能 的 UVFITS 数据 合成 和。 但 是 MP1 的 并 行 
仅仅 是 计算 任务 的 并 行 ， 它 将 计算 任务 分 成 多 个 子 任务 同时 执行 ， 从 而 减 小 整 
体 的 计算 时 间 。 如 果子 任务 是 数据 密集 型 的 计算 ， 中 央 处 理 器 的 计算 能 力 依然 
不 能 满足 实时 计算 的 需求 。 使 用 MPI 实现 对 任务 的 划分 ， 使 用 CUDA 实现 对 子 任 
务 的 计算 加 速 ， 这 就 构成 了 MP1-CUDA 混合 并 行 的 模式 。 在 中 央 处 理 器 和 图 形 处 
理 器 架构 下 ， 这 种 模式 可 以 结合 两 者 的 优势 ， 提 高 科学 计算 的 效率 。 

2 ”斑点 统计 重建 方法 

斑点 统计 重建 方法 是 一 种 以 短 曝 光 图 像 的 统计 信息 为 基础 的 方法 ， 这 种 方 
法 通过 对 目标 斑点 图 像 进行 某 种 形式 的 统计 处 理 得 到 高 分 辩 重 建 像 刀 。 按 重建 
算法 主要 分 为 频 域 重建 和 空域 重建 两 类 。 频 域 重 建 的 代表 方法 有 基于 二 阶 统 计 
的 Labeyrie 3, Knox-Thompson (简称 K-T)〉 法 外 和 三 阶 统 计 的 斑点 撞 腊 法 
N. 空域 重建 法 包括 简单 位 移 亚 加法， 迭代 位 移 县 加 法 以 及 基于 选 帧 的 相关 位 
移 又 加 法 等 。 本 文采 用 K-T 法 实现 对 太阳 图 像 的 高 分 辨 率 重 建 。 

2.1 Labeyrie 法 

在 满足 等 景 性 假设 下 ， 每 帧 短 曝光 图 像 可 以 看 作 是 目标 和 光学 点 扩展 函数 
的 卷 积 : 

(1) 
它 的 传 里 叶 变换 可 以 表示 为 
=0() + HO (2) 
，0() ，H( 分 别 表示 为 ，， 的 傅 里 叶 变 换 ; 为 二 维 空间 频率 变量 。 

Labeyrie 法 也 称 为 斑点 干涉 术 ， 是 通过 统计 办 点 图 的 平均 能 谱 复 原 目标 傅 
里 叶 振 幅 。 按 照 Labeyrie 的 统计 方法 ， 多 帧 短 曝光 图 像 频 域 幅 值 平 方 的 系 综 平 
均 为 

(3) 
其 中 ， 中 括号 表示 算术 平均 ; 被 称 为 斑点 干涉 术 传 递 函 数 (STF) ， 退 卷 积 STF 
可 以 得 到 目标 的 传 里 叶 振 幅 。 斑 点 干涉 术 在 统计 过 程 中 丢失 了 相位 信息 ， 只 能 
重建 目标 的 传 里 叶 振 幅 ， 但 是 为 了 完整 重建 目标 ， 还 需要 目标 相位 。 

2.2 K-T 法 

为 了 重建 目标 相位 ，Knox 和 Thompson F 1974 年 对 Labeyrie 法 改进 后 提出 
了 一 种 基于 计算 频谱 的 互相 关 获 取 目 标 相 位 的 方法 ， 称 为 Knox-Thompson (f 
称 K-T) 法 ， 又 称 互 谱 法 。 它 在 统计 二 阶 距 时 加 上 一 个 频率 的 平移 ， 则 函数 的 
互 谱 可 以 表示 为 

(4) 
Ah, nH; 表示 空间 频率 平移 量 ， 当 =0 时 ， 互 谱 等 同 于 能 谱 。 对 于 的 
大 小 ， 应 该 小 于 ， 这 里 为 大 气相 干 长 度 ，4 为 观测 波长 ，f 为 系统 焦距 。 
斑点 图 的 互 谱 统 计 结 果 为 
(5) 
其 中 ， 为 K-T 法 的 传递 函数 ， 它 在 接近 衍射 极限 截止 频率 时 是 一 个 显著 值 的 实 
数 ， 所 以 互相 关 谱 的 相位 代表 目标 各 相 邻 频率 处 的 相位 差 。 通 过 从 零 频 处 的 连 


代 计 算 其 他 频率 处 的 相位 值 。 
3 AF MPI-CUDA 的 K-T 图 像 重 建 算法 实现 

整个 系统 在 单机 环境 下 实现 ， 计 算 流 程 如 图 1， 主 要 由 3 部 分 组 成 :MPI 主 
进程 ， 若 干 MPI 子 进程 和 图 形 处 理 器 程序 。 其 中 主 进 程 负责 分 发 和 汇总 数据 ， 
根据 振幅 和 相位 重建 子 图 并 拼接 成 完整 的 视 场 图 。 每 个 子 进程 负责 计算 若干 子 
块 的 振幅 和 相位 ， 其 中 计算 过 程 主要 在 图 形 处 理 器 上 完成 。 
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图 1 MPI-CUDA 实现 高 分 辩 重 建 流程 图 
Fig. 1Flowchartof MPI-CUDAimplementation high resolution reconstruction 


3.1 图 像 预 处 理 和 分 块 

在 开始 计算 之 前 ， 首 先 要 对 图 像 数 据 进行 预 处 理 ， 如 平 场 和 上 暗 场 修正 。 在 
成 像 系统 中 ， 线 性 空 不 变 很 难 在 一 个 完整 视 场 内 成 立 ， 但 是 在 一 个 等 景区 大 小 
区 域内 线性 空 不 变 近似 成 立 ， 可 用 相同 的 点 扩展 函数 。 因 此 可 以 根据 等 景区 把 
一 组 短 曝光 图 像 切 分 成 若干 个 子 块 ， 每 个 子 块 可 以 独立 地 计算 重建 振幅 和 重建 
相位 。 最 后 拼接 时 只 使 用 子 块 的 中 间 部 分 ， 因 此 切 分 时 子 块 之 间 有 重 又 ， 本 文 
RAMEEZ 50%。 
3.2 数据 分 发 

正 是 因为 子 块 之 间 的 计算 是 不 相关 的 ， 可 以 将 每 个 子 块 的 重建 看 做 独立 子 
任务 。 采 用 MP1 并 行 计 算 框架 ， 实 现 子 块 重 建 的 并 行 化 ， 将 所 有 子 块 均衡 地 分 
到 每 个 子 进程 中 。 为 了 减少 MP1 进程 间 的 通信 ， 尤 其 是 主 进程 向 各 个 子 进程 分 
发 数据 的 时 间 消 耗 ， 将 图 像 原始 数据 保存 在 系统 共享 内 存 中 。 主 进程 只 需 向 子 
进程 传递 一 些 控制 信息 ， 如 子 块 数 据 在 图 像 数据 的 索引 位 置 等 ， 每 个 子 进程 根 
据 索 引 位置 直 接 从 共享 内 存 中 读 取 图 像 数据 ， 从 而 节省 大 量 通信 时 间 消 耗 。 

虽然 每 个 进程 只 负责 子 块 的 计算 ， 但 是 子 块 的 计算 依然 是 数据 密集 的 复杂 
计算 。 为 了 进一步 对 计算 进行 优化 ， 利 用 中 央 处 理 器 -图 形 处 理 器 异 构 计 算 框架 ， 
在 图 形 处 理 器 中 实现 数据 的 并 行 处 理 。 在 开始 计算 前 ， 需 要 将 数据 拷贝 到 图 形 


处 理 器 的 显存 中 ， 由 于 主机 和 图 形 处 理 器 之 间 通 过 PC1 总 线 进 行 数 据 传输 ， 每 
个 子 进程 需 循环 处 理 多 个 子 块 ， 频 繁 的 进行 主机 和 设备 之 间 数 据 传输 严重 影响 
性 能 。 为 了 减 小 对 计算 性 能 的 影响 ， 在 计算 开始 前 把 所 有 子 块 的 数据 全 部 拷贝 
到 显存 。 

3. 3 振幅 重建 

振幅 的 重建 通常 在 频 域 使 用 Labeyrie 法 退 卷 积 传递 函数 完成 ， 每 个 子 块 的 
计算 过 程 如 下 : 

(1) 计算 斑点 图 子 块 的 快速 传 里 时 变换 ; 

(2) 计算 子 块 的 谱 比 值 ; 

(3) 通过 匹配 求 得 相干 长 度 ; 

(4) 由 计算 斑点 传递 函数 ; 

(5) 通过 , 解 卷 积 得 到 目标 的 傅 里 时 振幅 。 

首先 需要 将 子 块 图 像 从 空域 转换 到 频 域 ， 使 用 CUDA 的 标准 库 CUFFT 对 子 块 
TBE SR. OR (2) 是 整个 流程 中 计算 最 集中 的 地 方 ， 其 中 需要 对 子 块 中 
的 单 由 图像 求 算术 平均 ， 要 把 频 域内 所 有 频率 点 的 值 相 加 ， 而 求 和 是 数据 依赖 
型 计算 不 利于 并 行 。 在 每 个 线程 块 中 的 线程 可 以 利用 共享 内 存 进 行 交 互 和 块 内 
线程 同步 的 特性 ， 采 用 归 约 求 和 的 方式 ， 可 以 将 求 和 计算 的 时 间 复 杂 度 由 降 为 。 
其 他 的 计算 各 个 频率 点 是 独立 计算 的 ， 则 将 线程 总 数 设 置 为 频率 点 总 数 ， 最 大 
利用 图 形 处 理 器 的 并 行 能 力 。 在 大 气 灌流 满足 Kolmogorov 谱 的 情况 下 ，STF 只 
是 大 气相 干 长 度 的 函数 。 通 过 理论 计算 出 不 同情 况 下 的 值 作为 基准 ， 将 步 又 
(2) 计算 出 来 的 值 与 其 匹配 得 到 ， 根 据 求 出 STF， 退 卷 积 STF 得 到 目标 的 传 里 
叶 振 幅 。 
3.4 相位 重建 

重建 完整 的 图 像 只 有 振幅 是 不 够 的 ， 还 需要 目标 图 像 的 相位 。 采 用 K-T 法 
计算 得 到 图 像 的 互相 关 谱 的 相位 即 目标 图 像 的 各 相 邻 频 域 处 的 相位 差 ， 通 过 从 
零 频 处 的 迭代 得 到 其 他 频率 处 的 相位 值 。 每 个 子 块 的 计算 过 程 如 下 : 

(1) 计算 斑点 图 子 块 的 FFT; 

(2) 计算 K 个 不 同 频 移 的 交叉 谱 ; 

(3) 迭代 计算 K 个 不 同 频 移 下 的 子 块 相位 ; 

(4) 对 K 个 相位 结果 求 平均 得 到 最 终 相位 。 

为 了 提高 计算 的 精确 度 ， 对 图 像 进行 K 个 不 同 的 频 移 并 计算 它们 的 交叉 谱 ， 
由 此 带 来 了 计算 量 的 大 幅 增 加 ， 采 用 串 行 的 方式 对 每 个 频率 点 进行 计算 则 需要 
KW 个 循环 ， 可 见 计 算 量 是 巨大 的 。 通 过 分 析 ， 不 同 频 移 的 交叉 谱 计算 是 独立 
的 ， 将 线程 数 设置 为 与 频率 点 总 数 相等 ， 每 个 线程 计算 一 个 频率 点 的 K 个 不 同 
频 移 。 由 互相 关 谱 只 能 得 到 相 邻 频率 间 的 相位 差 ， 要 获得 目标 相位 还 需要 从 零 
频 处 迭代 求 和 才能 得 到 。 频 率 (m n) 处 的 相位 值 可 以 由 不 同 路 径 求 得 ， 如 分 别 由 
频率 (m-1, n) 和 频率 (m, n-1) 的 相位 与 相对 应 的 相位 差 求 和 得 到 ， 为 了 提高 精度 ， 
通常 对 不 同 路 径 的 结果 求 平 均 。 这 种 数据 强 依 赖 型 的 计算 ， 每 个 点 的 相位 都 依 
赖 前 面 的 点 计算 得 到 ， 尚 无 较 好 的 方法 使 用 图 形 处 理 器 并 行 计 算 。 
2.4 图 像 拼 接 

根据 得 到 各 个 子 块 的 目标 傅 里 时 振幅 和 目标 相位 ， 通 过 逆 传 里 时 变换 得 到 
重建 子 图 像 。 重 建 完 子 图 像 后 ， 需 要 将 所 有 子 图 像 拼 接 成 全 视 场 的 图 像 。 因 为 
使 用 频 域 方 法 重建 相位 时 ， 用 的 是 又 加 图 的 初始 相位 ， 所 以 拼接 时 一 般 不 会 有 
偏 移 。 拼 接 完成 后 ， 需 要 进行 一 些 后 处 理 ， 如 图 像 的 对 齐 等 。 


4 实验 分 析 

对 上 述 CUDA-MP | 的 混合 模型 实现 太阳 图 像 高 分 辩 重 建 过 程 的 性 能 进行 测试 。 
实验 采用 的 计算 机 配置 为 IntelXeon-2620v3 处 理 器 ， 主 频 为 2. 46HZ; 图 形 处 
理 器 卡 为 两 张 英 伟 达 公司 的 Teslak80 显卡 ， 每 张 显卡 有 两 个 核 芯 ，4992 个 
CUDA 核 ，126 显存 ; 操作 系统 是 Ubuntu14. 04. 5LTS。 测 试 数据 为 1m 太阳 望远镜 
观测 到 的 100 帧 短 曝光 太阳 图 像 ， 其 参数 见 表 1。 


NVST 望远镜 直径 (mm) 980. 00 

图 像 尺 寸 (像素 ) 1024X1024 

帧 数 100 

波长 (nm) 705. 80 

等 时 区 (A) 5 

比例 尺 〈 角 秒 /像素 ) 0. 042 

子 进 程 数 MP 1-CUDA/s MPI/s 

1 54 158 
4 16 42 
8 12 24 
12 15 20 
16 18 22 


实验 中 使 用 不 同 的 进程 数 ， 测 试 MP1-CUDA 和 纯 MPI 两 种 并 行 方式 实现 K-T 
算法 的 时 间 ， 由 于 使 用 的 显卡 共有 4 个 计算 核 芯 ， 为 了 使 每 个 核 芯 的 计算 任务 
均衡 ， 子 进程 数 设置 为 4 的 倍数 ， 结 果 见 表 2。 从 结果 对 比 可 以 看 出 ， 只 使 用 一 
个 子 进 程 即 串 行 计算 时 ，MP1-CUDA 使 得 计算 速度 获得 明显 提升 ， 整 个 流程 的 计 
算 时 间 只 有 后 者 的 1/3， 这 表明 使 用 图 形 处 理 器 优化 计算 后 加 速效 果 明 显 。 随 
着 子 进程 数目 的 增加 ， 并 行 计算 的 优势 展现 出 来 ， 两 者 的 计算 时 间 都 大 幅 减 小 ， 
但 是 MP1-CUDA 的 计算 时 间 始 终 快 于 纯 MP1。 不 过 受 限 于 图 形 处 理 器 和 中 央 处 理 

器 的 计算 能 力 ， 两 者 的 计算 时 间 在 达到 一 个 最 小 值 后 ， 继 续 增加 进程 数 时 间 反 
而 增加 ， 其 中 WP1-CUDA 在 使 用 8 个 子 进程 时 计算 时 间 最 小 只 有 12s， 而 MP1 最 
小 时 却 需要 20s， 因 此 MP1-CUDA 混合 并 行 的 方式 具有 明显 优势 。 

此 外 在 使 用 8 个 子 进程 的 前 提 下 ， 分 别 用 中 央 处 理 器 和 图 形 处 理 器 处 理子 
块 ， 并 对 各 个 环节 所 用 的 时 间 进 行 统计 ， 结 果 如 表 3。 从 时 间 对 比 上 可 以 看 出 ， 
算法 移植 到 图 形 处 理 器 上 后 每 一 部 分 都 获得 了 速度 提升 ， 但 是 各 部 分 的 加 速 比 
却 有 所 差异 ， 这 和 各 部 分 在 程序 中 的 具体 实现 有 关 ， 并 行 化 程度 越 高 加 速 比 就 
越 大 ， 其 中 计算 平均 值 获得 了 172. 56 倍 的 加 速 。 从 时 间 占 用 上 看 ， 由 于 要 计算 
A 个 不 同 频 移 的 交叉 谱 ， 交 叉 谱 的 计算 时 间 占 比 最 高 ， 而 使 用 图 形 处 理 器 加 速 
后 获得 了 5.76 的 加 速 比 ， 在 单个 子 块 计算 过 程 中 的 时 间 占 用 也 从 75. 3% 下 降 到 
了 31. 1%， 对 整个 程序 的 加 速 起 了 关键 作用 。 由 于 递 推 求 相 位 等 数据 依赖 性 强 
计算 无 法 在 图 形 处 理 器 上 并 行 实现 ， 并 且 中 央 处 理 器 还 要 完成 图 像 拼 接 等 计算 
流程 和 远 辑 控制 流程 ， 此 外 中 央 处 理 器 和 图 形 处 理 器 之 间 的 数据 传输 也 存在 时 
间 消 耗 ， 最 终 使 用 MP1-CUDA 的 方式 较 只 使 用 MP1 并 行 时 间 缩 短 了 一 半 。 由 于 图 
形 处 理 器 与 中 央 人 处理 器 结构 的 差异 ， 大 量 的 浮 点 数 计算 使 得 最 后 结果 存在 微小 
的 精度 误差 ， 但 是 MP1-CUDA 混合 并 行 模式 得 到 的 重建 图 像 达到 了 预期 效果 ， 图 
像 的 纹理 细节 得 以 展现 。 


表 3 中 央 处 理 器 和 图 形 处 理 器 计算 时 间 对 比 


模块 CPU/ms GPU/ms 加 速 比 


计算 平均 值 5. 522 0. 032 172. 560 
100 iF Ee BAS 10. 650 2. 750 3. 870 
换 

预 处 理 过 程 50. 254 30. 903 1. 626 
计算 谱 比 52. 023 22. 904 2. 270 
计算 交叉 谱 586. 26 101. 752 5. 760 
单个 子 块 778. 000 324. 000 2. 400 
整个 流程 24753. 000 12098. 000 2. 050 


Table 3 Computation time contrast between CPU and GPU 


5 总 结 


本 文 在 单机 上 使 用 MP1-CUDA 混合 并 行 的 模式 实现 了 基于 K-T 算法 的 太阳 高 
分 辨 图 像 重 建 ， 并 且 取 得 了 预期 效果 。 实 验 使 用 不 同 数目 的 进程 进行 测试 ， 结 
果 表 明 这 种 混合 并 行 的 模式 要 快 于 纯 MP1 的 并 行 。 尤 其 是 子 块 中 交叉 谱 的 计算 
移植 到 图 形 处 理 器 后 获得 了 2. 4 倍 的 加 速 ， 使 整个 流程 的 时 间 大 大 减 小 ， 图 形 
处 理 器 的 密集 运算 能 力 得 到 了 充分 体现 。 天 文 观测 产生 的 数据 量 大 ， 并 且 数 据 
处 理 的 算法 复杂 ， 而 中 央 处 理 器 的 计算 能 力 远 远 不 能 满足 海量 数据 处 理 的 需要 ， 
而 中 央 处 理 器 -图 形 处 理 器 这 种 高 性 能 混合 架构 为 天 文 研究 的 大 规模 计算 任务 提 
供 了 借鉴 和 参考 。 在 未 来 的 工作 中 ， 需 要 进一步 对 算法 进行 分 析 和 优化 ， 如 在 
不 影响 重建 效果 的 情况 下 ， 减 小 子 块 的 重叠 面积 ， 从 而 减 小 子 块 的 数量 。 加 深 
对 图 形 处 理 器 计算 架构 的 理解 ， 将 更 多 的 计算 在 图 形 处 理 器 上 完成 ， 并 将 MP1- 
CUDA 混合 并 行 的 方法 推广 到 采用 斑点 撞 膜 法 的 太阳 高 分 辨 图 像 重 建 中 。 
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Abstarct: Atmospheric turbulence causes ground-based telescope imaging 
blur,theK-T high spatial image reconstruction algorithm is an effective way to solve 
this problem and the speckle imaging techniques is acommon one. However, some 
factors such as large data and complex calculation, cause the reconstruction is very 
time-consuming. In this paper, we focus on the research of high spatial image 
reconstruction under the CPU and GPU hybrid architecture. By using MPI-CUDA 
hybrid parallel technology. we implemented a high spatial resolution solar image 
reconstruction system based on speckle imaging techniques in stand-alone GPU 
environment. The experimental result shows that the processing speed of image sub- 
block has been improved significantly compared with only use MPI parallel, and the 
acceleration ratio of the whole process has reached 2 with 8 subprocess. The 
experimental results shows that the effectiveness of MPI-CUDA hybrid parallel can 
provide a good reference for large-scale computing tasks in astronomical 
research. 
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